2中山大学生命科学学院, 广州, 510275
作者 通讯作者
计算分子生物学, 2012 年, 第 1 卷, 第 3 篇 doi: 10.5376/cmb.cn.2012.01.0003
收稿日期: 2012年03月12日 接受日期: 2012年06月28日 发表日期: 2012年07月13日
引用格式(中文):
章芬等, 2012, 原核生物基因组三核苷酸转移概率偏倚的物种特异性及致病关联性, 计算分子生物学(online) Vol.1 No.3 pp.16-22 (doi: 10.5376/cmb.cn.2012.01.0003)
引用格式(英文):
Zhang et al., 2012, The Correlation between Species-specificity and Pathogenicity of Trinucleotide Transition Probability Bias in Prokaryotic Genomes, Jisuan Fenzi Shengwuxue (online) (Computational Molecular Biology) Vol.1 No.3 pp.16-22 (doi: 10.5376/cmb.cn.2012.01.0003)
作为DNA序列的重要组成特征,基因组寡核苷酸使用模式及其偏倚的研究已被广泛应用于原核生物基因组的分析。然而,关于寡核苷酸使用模式的偏倚是否具有种群特异性并反映种群的功能这一问题,尚未阐明。我们基于一阶马尔可夫链模型,提出了一个度量寡核苷酸使用模式偏倚的新指标——基因组三核苷酸(trinucleotide, tri-)转移概率偏倚(transition probability bias, TPB)特征向量,或称之为三核苷酸转移·概率最大偏倚分布,并分析比较了727条有代表性的原核生物基因组序列tri-TPB特征向量。结果表明,基因组tri-TPB特征向量具有物种特异性,亲缘关系越近的物种,它们的tri-TPB特征向量越相似;同种内之不同菌株具有几乎完全相同的tri-TPB特征向量,并且不依赖于基因组的GC含量;此外,基因组tri-TPB特征向量的相似性与菌株的致病性特征相关。本研究结果为基于全基因组寡核苷酸组成和分布信息的物种及其致病性进化分析提供了新的思路和方法。
无论是在原核生物,还是在真核及非细胞生物基因组中,短寡核苷酸含量及其分布受到人们的广泛关注和长期研究(Muto and Osawa, 1987;Karlin et al., 1993; Karlin et al., 1994; Karlin et al., 1997)。研究表明,密码子使用模式受到有效核糖体的选择、基因漂移以及偏倚突变等多种因素的调控,影响基因表达的效率与基因组内核酸的使用模式(Grantham et al., 1981; Bibb et al., 1984; Shah and Gilchrist, 2011);生物有机体的二核苷酸相对丰度值是一种基因组标签,可以用来描述二核苷酸化学堆垛能、限制性内切酶的选择、物种特异性DNA修饰、复制和修复机制以及构象偏好等(Kariin and Burge, 1995; Karlin, 2001);原核生物基因组的四核苷酸使用模式(tetranucleotide usage departure, TUD)具有物种特异性,用TUD构建的系统发育树含有一定的进化信息(Pride et al., 2003)。此外,许多神经系统相关疾病及肿瘤都与其基因组中的微卫星(三核苷酸的重复片段)的大量存在有关(Orr and Zoghbi, 2007; Haberman et al., 2008)。
我们知道,基因组的进化受到多重因素的影响,基于单个基因的分析已不足以全面了解相关物种的系统发育关系。尽管SSU rRNA (small subunit rRNA)基因已被广泛应用于系统发育学的研究之中(Woese and Fox, 1977),但由于作为基因组进化的重要动力源泉的平行转移基因(Ochman et al., 2000)的普遍存在,使得基于SSU rRNA基因以及其他蛋白编码基因获得的系统发育关系之间出现明显的不一致(Doolittle, 1999);同时,SSU rRNA基因具有高度保守性,这使得进化上远缘的SSU rRNA基因可能有非常相似的核酸组成,导致其在系统发育树上会被错误地聚集在一起(Hasegawa and Hashimoto, 1993)。
目前,基于马尔可夫链模型的分析方法(Phillips et al., 1987)是揭示短寡核苷酸在基因组中出现频率特征的一种有力工具。也许,寡核苷酸转移概率分布的局部偏倚,也就是转移概率矩阵相邻分量间的差异,不但是寡核苷酸在基因组中出现频率的差异的一种有意义的统计学度量,而且刻画了基因组中寡核苷酸成分的动力学稳定性,进而含有物种进化的信息。我们猜想,在基因组寡核苷酸成分的动力学稳定性之中,隐藏有SSU rRNA基因所无法揭示的物种间差异以及这些差异与菌株之特异生物学功能之间的关联。鉴于此,本文建议了一个新的度量基因组中寡核苷酸成分的局部偏倚或动力学稳定性的指标—基因组三核苷酸(trinucleotide, tri-)转移概率偏倚(transition probability bias, TPB),以揭示隐藏于寡核苷酸相对丰度与密码子使用偏倚之中的有用信息。利用这一全新的指标,我们研究了来自古生菌、真细菌基因组及其质粒的1 170条DNA序列的tri-TPB特征向量或三核苷酸转移概率最大偏倚分布间的相似性,发现基因组tri-TPB特征向量具有极高的种群保守性和显著的致病关联性。
1结果分析
1.1 tri-TPB特征向量具有物种特异性
我们发现,种群内各基因组的tri-TPB特征向量是相似的。对迄今所发现的真细菌中两个最大的菌门(Gammaproteobacteria和Firmicute)而言,Gammaproteobacteria菌门的两个H. pylori菌株(H. pylori 26695和H. pylori J99)有近乎相同的最大tri-TPB分布(R2=0.996, 图1A),但它们与其远缘物种L. reuteri DSM 20016之间的相关性极少(图1A);对Firmicute菌门的两个C. botulinum菌株(C. botulinum A str. ATCC 19397和C. botulinum strain ATCC 3502)的tri-TPB特征向量而言,它们间的相关系数达到0.961,但它们与其远缘物种M. synoviae的tri-TPB特征向量之间的相关系数值却只有0.074 (图1B)。这一tri-TPB特征向量的相似性,亦存在于具有多条染色体的菌株之中(图2)。例如,V. harveyi菌株的两条不同染色体基因的tri-TPB特征向量的相关系数达到了0.969 (图2A),B. cenocepacia菌株的三条染色体之间也呈现出极佳的线性相关性(图2B; 图2B C; 图2B D)。上述结果与之前关于原核生物基因组TUD模式的研究结果相一致(Pride et al., 2003)。这提示,基因组的最大tri-TPB分布是物种特异性的,它可以刻画一个物种的特征。
我们的结果还表明,基因组tri-TPB特征分布不依赖于GC含量的大小。尽管H. pylori菌株的远缘物种L. reuteri DSM 20016具有和H. pylori菌株相同的GC含量(38%),但它们的最大tri-TPB分布却不相似(图1A);Firmicute菌门的两个菌株C. botulinum A str. ATCC 19397和C. botulinum A str. ATCC 3502与它们的远缘物种M. synoviae的GC含量均为28%,但后者与前两者之间也无相似的最大tri-TPB分布(图1B);另外,对通过人工构建的一条与两个H. pylori菌株有着相同基因组大小和相同GC含量的随机DNA序列而言,它的tri-TPB特征向量与两个H. pylori菌株的tri-TPB特征向量几乎没有相关性(R2<0.01, 数据未提供)。
|
|
1.2 原核生物tri-TPB特征向量间的相似性随着物种间进化距离的增加而减小
本研究展示了E. coli str. K-12 substr. MG1655 与不同分类级别物种内的菌株tri-TPB特征分布向量间的相关性(图3)。其中,A组是K-12与同种内的其它菌株的相关性;B组是K-12与同科内的其它属的菌株的比较(不包含与Buchnera aphidicola属的菌株的比较);C组是K-12与同纲内的其它目的菌株的比较;D组是K-12与同门内的其它纲的菌株的比较;E组是K-12与其它门的菌株的比较;相关系数的值都是以均值±标准差的形式展示的(每组中数据点的个数分别为8, 32, 102, 198和286)。除了纲和门两组无显著性差异(p=0.157)之外,其他各组间的比较都具有统计学意义上的显著性差异(p值的变化范围为0.01到0.012)。由于缺乏与K-12同属不同种以及同目不同科的物种数据,所以在图4中未含有这类比较结果。
结果表明,各tri-TPB特征向量间的平均相关系数值随着物种间进化距离的增加而减小,即:沿着从界、门、纲、科到种的进化路径,种群内各物种tri-TPB特征向量间的相似性逐渐增加。也就是说,在原核生物整体进化的水平上,分类学上亲缘关系越近的物种,它们的tri-TPB分布越相似。另一方面,与种间极小的差异不同,在界、门、纲和科内,各基因组tri-TPB特征向量间的相关系数的标准差是显著的(图4)。这种在界、门、纲和科内的各基因组tri-TPB特征向量间的显著差异性,意味着原核生物基因组三核苷酸转移概率最大偏倚分布的多样性。
|
|
1.3 近缘物种的tri-TPB特征向量具有致病关联性
针对假单胞菌属(Pseudomonas)内具有不同致病性特征的菌群,我们分析比较了同一菌群内部及不同菌群之间的细菌基因组tri-TPB特征向量间的关系,所得结果如图4所示。其中,Ga表示动物致病型菌群(Stover et al., 2000; Vodovar et al., 2006),包含P. aeruginosa PA7、P. aeruginosa UCBPP-PA14、P. aeruginosa LESB58、P. aeruginosa PAO1和P. entomophila L48五个菌株;Gp为植物致病型菌群(Feil et al., 2005),含有P. syringae pv. syringae B728a、P. syringae pv. phaseolicola 1448A和 P. syringae pv. tomato str. DC3000三个菌株;Gn是非致病型菌群(Nelson et al., 2002),由P. fluorescens SBW25、P. fluorescens Pf-5、P. fluorescens Pf0-1、P. putida F1、P. putida KT2440、P. putida GB-1、P. putida S16、P. putida W619、P. mendocina NK-01和P. mendocina ymp等10个菌株组成;符号“++”和“+”分别表示组间和组内比较,符号“-”表示未参与比较;利用t-检验来估计相关数据的统计学差异的显著性。研究结果表明(图4),对动物致病型菌群,植物致病菌群和非致病型菌群而言,相同菌群内的tri-TPB特征向量具有很高的相似性,它们的相关系数大于0.95;不同菌群的tri-TPB特征向量间的相似性要低于菌群内的相似性,且具有显著的统计学差异(p<0.01)。基因组tri-TPB特征向量的差异,依赖于菌群的致病特性:最显着的差异可能存在于动物与植物致病型菌群中,非致病型与动物致病型菌群间的差异较小,而存在于非致病型与植物致病型菌群间的差异几乎可以不计。这表明:较之非致病与植物致病型菌群,动物致病型菌群具有更为特异的三核苷酸转移概率最大偏倚分布。
如上所述,假单胞菌属内菌株致病性的有无以及致病类型与菌株基因组tri-TPB特征向量的相似性之间存在相关性。这一菌株基因组特征与其致病性间的关联,通常不能从传统的系统发育分析中获得,并可能被传统分析方法所曲解。事实上,利用我们基于16S rRNA基因序列所构建的系统发育树,可以发现:动物致病型菌株P. entomophila与非致病型菌群P. putida处在同一分支,但很早以前就与动物致病型菌株P. aeruginosa发生了分歧(图5)。
|
2 讨论
已有研究表明,细菌基因组中基因的多样性在很大程度上是来自于基因的平行转移,且这些转移事件不仅存在于远缘物种的DNA序列之间(Ochman et al., 2000; Juhas et al., 2009),同样也发生在近缘细菌和真核生物的同源基因之间(Hotopp et al., 2007)。这可能导致亲缘关系非常近的物种内的基因含量之显著差异。有趣的是,我们的结果表明,基因组特征tri-TPB向量在种群内具有保守性,且这种保守性不依赖于基因组的GC含量的大小。这意味着:基因的平行转移现象,虽然会导致种群内基因的多样性,但不会导致基因组tri-TPB特征向量的改变。尽管基因组tri-TPB特征向量间的相似性会随物种分类级别的升高而逐渐减小(图4),但却可能提供了一个研究分子遗传与进化的有用度量指标。
无论是在表型特征数据缺乏时所作的系统发育关系推断,还是对现有表型特征数据所得结果间的比较,基于核糖体RNA分子基因序列的系统发育分析均被视为一种可靠的方法。尽管如此,这一方法在刻画物种间的差异时会出现盲区(Woese and Fox, 1977)。研究发现,基因组中不稳定的基因通常与细胞表面信号转导或致病性等功能相关,而不易发生转移的基因则参与到翻译或氨基酸的合成过程,如编码核糖体RNA的基因(Lawrence, 1999)。这使得基于SSU rRNA等单个基因的传统系统发育分析方法很难察觉出物种中相对活跃的功能性基因的改变。因而,系统发育分析难以回答菌株基因组特征是否可以表征菌株的致病特性。与之不同,我们的研究表明,近缘物种中具有相同致病性的菌株基因组tri-TPB特征向量间的相关性明显高于致病性不同的菌株,这提示我们,基因组tri-TPB向量也许还可以刻画菌株的致病特性。
可以认为,基于基因组tri-TPB特征分布的分析,也许是对其他基于全基因组分析工具的一个重要补充。与其他分析方法相比,尽管基于基因组tri-TPB的分析也无法逾越大量平行转移基因和协同进化带来的物种进化分析障碍,但却避免了复杂而耗时耗力的核苷酸或氨基酸序列比对。同时,菌株基因组tri-TPB特征向量间的相似性与菌株致病性之间的相互关联,可以为近缘物种致病性的进化分析以及相关疾病的预防和治疗提供新的思路和方法。
3材料与方法
3.1原核生物基因组及其质粒序列数据
本文的研究对象为675个原核物种的727条全基因组序列,它们均下载自NCBI的FTP服务站点(ftp://ftp.ncbi.nih.gov/genomes/);用于系统发育分析的18种原核生物的16S rRNA核苷酸序列均下载自NCBI(http://www.ncbi.nlm.nih.gov/sites/gene/);我们人工构建了一条长度为5 Mbp,GC含量为50%的类似于大肠杆菌的完全随机序列,并将其与1 170条完全测序成功的基因组序列进行比较,检测分析本文分析方法的稳定性。
3.2 基因组转移概率偏倚(transition probability bias, TPB)及其特征向量
对于任意一条DNA序列,将序列中长度为k的寡核苷酸片段记为ω1ω2...ωk,其中ωs (s=1,…,k)是四种碱基中的任意一种。将所有不同的4k个长度为k的寡核苷酸序列中的第i个[ω1ω2...ωk]i 记为Ai,而将长度为2k的寡核苷酸序列[ω1ω2...ωk]i[ω1ω2...ωk]j记为AiAj,其中i和j取1到4k之间的整数。这样,对于任意一条DNA序列,基于马尔可夫链模型,由寡核苷酸序列Ai过渡到Aj的转移概率pij可由下式计算:
(1) |
其中,pij=P(AiAj)和 P(Ai)分别是在长度为k和2k的读码框下观察得到的k阶寡核苷酸序列Ai和2k阶寡核苷酸短序列AiAj的出现频率。所有寡核苷酸的出现频数的计算都是基于DNA序列的正负两条链。
对于不同的DNA序列,其转移概率矩阵(transition probability matrix, TPM) (Van't Spijker et al., 2009)也是不同的。我们定义转移概率偏倚(transition probability bias, TPB)向量Δ={Δi}
(2) |
其中n=4k。TPB向量Δ是非唯一的,可以作为转移概率分布非均匀性的一种度量。对转移概率矩阵的每一行数据进行重排,可得TPB向量Δ的M=4k×(4k-1)×…×2×1种不同表达形式Δ(m) = (Δ1(m)Δ2(m)...Δn(m)) (m=1, 2, …,M)。为简化后续序列分析,我们引入TPB特征向量Δc (它为所有可能的转移概率分布的拓扑结构中的一种, 表征转移概率最大偏移之分布),其每一个元素对应相应TPM各行转移概率偏倚的最大值,也就是:
(3) |
具有TPB特征向量Δ1c (=x1, x2,…,xn)和Δ2c (=y1, y2,…,yn)的两条不同DNA序列之间的相关性, 由皮尔森(Pearson)相关系数r来衡量,公式如下:
(4) |
本研究中,所有寡核苷酸在基因组中出现频率的计算是利用TCL脚本程序完成,而TPB特征向量Δc的计算则是利用MATLAB程序完成。作为初步研究成果,我们这里仅讨论基因组tri-TPB特征向量或三核苷酸转移概率最大偏倚分布,tri-TPB表示三核苷酸转移概率偏倚。
作者贡献
章芬负责实验设计、实验数据采集与分析及论文初稿写作;黄庆生负责编写程序,参与部分数据分析和讨论;严翠婷参与部分数据分析;吴建华负责研究方案与实验设计、数据分析、论文写作和修改。
致谢
本研究受到国家自然科学基金面上项目(10772069)、广东省工业攻关项目(2008B011000017)和广东省自然科学基金项目(S2011010005451)的资助。
参考文献
Bibb M.J., Findlay P.R., and Johnson M.W., 1984, The relationship between base composition and codon usage in bacterial genes and its use for the simple and reliable identification of protein-coding sequences, Gene, 30(1-3): 157-166
http://dx.doi.org/10.1016/0378-1119(84)90116-1
Doolittle W.F., 1999, Phylogenetic classification and the universal tree, Science, 284(5423): 2124-2129
http://dx.doi.org/10.1126/science.284.5423.2124 PMid:10381871
Feil H., Feil W.S., Chain P., Larimer F., DiBartolo G., Copeland A., Lykidis A., Trong S., Nolan M., Goltsman E., Thiel J., Malfatti S., Loper J.E., Lapidus A., Detter J.C., Land M., Richardson P.M., Kyrpides N.C., Ivanova N., Lindow S.E., 2005, Comparison of the complete genome sequences of Pseudomonas syringae pv. syringae B728a and pv. tomato DC3000, Proceedings of the National Academy of Sciences of the United States of America, 102(31): 11064-11069
http://dx.doi.org/10.1073/pnas.0504930102 PMid:16043691 PMCid:1182459
Grantham R., Gautier C., Gouy M., Jacobzone M., and Mercier R., 1981, Codon catalog usage is a genome strategy modulated for gene expressivity, Nucleic Acids Research, 9(1): 213
http://dx.doi.org/10.1093/nar/9.1.213-b
Hasegawa M., and Hashimoto T., 1993, Ribosomal RNA trees misleading, Nature, 361(6407): 23
http://dx.doi.org/10.1038/361023b0 PMid:8421491
Haberman Y., Amariglio N., Rechavi G., and Eisenberg E., 2008, Trinucleotide repeats are prevalent among cancer-related genes, Trends in Genetics, 24(1): 14-18
http://dx.doi.org/10.1016/j.tig.2007.09.005 PMid:18054813
Hotopp J.C.D., Clark M.E., Oliveira D.C.S.G., Foster J.M., Fischer P., Torres M.C.M., Giebel J.D., Kumar N., Ishmael N., Wang S., Ingram J., Nene R.V., Shepard J., Tomkins J., Richards S., Spiro D.J., Ghedin E., Slatko B.E., Tettelin H., and Werren J.H., 2007, Widespread lateral gene transfer from intracellular bacteria to multicellular eukaryotes, Science, 317(5845): 1753-1756
http://dx.doi.org/10.1126/science.1142490 PMid:17761848
Juhas M., van der Meer J.R., Gaillard M., Harding R.M., Hood D.W., and Crook D.W., 2009, Genomic islands: Tools of bacterial horizontal gene transfer and evolution, FEMS Microbiology Reviews, 33(2): 376-393
http://dx.doi.org/10.1111/j.1574-6976.2008.00136.x PMid:19178566 PMCid:2704930
Kariin S., and Burge C., 1995, Dinucleotide relative abundance extremes: A genomic signature, Trends in Genetics, 11(7): 283-290
http://dx.doi.org/10.1016/S0168-9525(00)89076-9
Karlin S., 2001, Detecting anomalous gene clusters and pathogenicity islands in diverse bacterial genomes, TRENDS in Microbiology, 9(7): 335-343
http://dx.doi.org/10.1016/S0966-842X(01)02079-0
Karlin S., Blaisdell B.E., Sapolsky R.J., Cardon L., and Burge C., 1993, Assessments of DNA inhomogeneities in yeast chromosomeⅢ, Nucleic Acids Research, 21(3): 703-711
http://dx.doi.org/10.1093/nar/21.3.703 PMid:8441679 PMCid:309172
Karlin S., Mocarski E.S., and Schachtel G.A., 1994, Molecular evolution of herpesviruses: Genomic and protein sequence comparisons, Journal of Virology, 68(3): 1886-1902
PMid:8107249 PMCid:236651
Karlin S., Mrázek J., and Campbell A.M., 1997, Compositional biases of bacterial genomes and evolutionary implications, Journal of Bacteriology, 179(12): 3899-3913
PMid:9190805 PMCid:179198
Lawrence J.G., 1999, Gene transfer, speciation, and the evolution of bacterial genomes, Current Opinion in Microbiology, 2(5): 519-523
http://dx.doi.org/10.1016/S1369-5274(99)00010-7
Muto A., and Osawa S., 1987, The guanine and cytosine content of genomic DNA and bacterial evolution, Proceedings of the National Academy of Sciences, 84(1): 166-169
http://dx.doi.org/10.1073/pnas.84.1.166
Nelson K.E., Weinel C., Paulsen I.T., Dodson R.J., Hilbert H., Martins dos Santos V.A., Fouts D.E., Gill S.R., Pop M., Holmes M., Brinkac L., Beanan M., DeBoy R.T., Daugherty S., Kolonay J., Madupu R., Nelson W., White O., Peterson J., Khouri H., Hance I., Chris Lee P., Holtzapple E., Scanlan D., Tran K., Moazzez A., Utterback T., Rizzo M., Lee K., Kosack D., Moestl D., Wedler H., Lauber J., Stjepandic D., Hoheisel J., Straetz M., Heim S., Kiewitz C., Eisen J.A., Timmis K.N., Düsterhöft A., Tümmler B., Fraser C.M., 2002, Complete genome sequence and comparative analysis of the metabolically versatile Pseudomonas putida KT2440, Envi- ronmental Microbiology, 4(12): 799-808
http://dx.doi.org/10.1046/j.1462-2920.2002.00366.x PMid:12534463
Ochman H., Lawrence J.G., Groisman E.A., 2000, Lateral gene transfer and the nature of bacterial innovation, Nature, 405 (6784): 299-304.
http://dx.doi.org/10.1038/35012500 PMid:10830951
Orr H.T., and Zoghbi H.Y., 2007, Trinucleotide repeat disorders, Annu. Rev. Neurosci., 30: 575-621
http://dx.doi.org/10.1146/annurev.neuro.29.051605.113042 PMid:17417937
Phillips G.J., Arnold J., and Ivarie R., 1987, Mono-through hexa- nucleotide composition of the Escherichia coli genome: A Markov chain analysis, Nucleic Acids Research, 15(6): 2611-2626
http://dx.doi.org/10.1093/nar/15.6.2611 PMid:3550699 PMCid:340672
Pride D.T., Meinersmann R.J., Wassenaar T.M., and Blaser M.J., 2003, Evolutionary implications of microbial genome tetranucleotide frequency biases, Genome Research, 13(2): 145-158
http://dx.doi.org/10.1101/gr.335003 PMid:12566393 PMCid:420360
Shah P., and Gilchrist M.A., 2011, Explaining complex codon usage patterns with selection for translational efficiency, mutation bias, and genetic drift, Proc. Natl. Acad. Sci. USA, 108(25): 10231-10236
http://dx.doi.org/10.1073/pnas.1016719108 PMid:21646514 PMCid:3121864
Stover CK, Pham XQ, Erwin AL, Mizoguchi SD, Warrener P, Hickey MJ, Brinkman FS, Hufnagle WO, Kowalik D.J., Lagrou M., Garber R.L., Goltry L., Tolentino E., Westbrock- Wadman S., Yuan Y., Brody L.L., Coulter S.N., Folger K.R., Kas A., Larbig K, Lim R., Smith K., Spencer D., Wong G.K., Wu Z., Paulsen I.T., Reizer J., Saier M.H., Hancock R.E., Lory S., and Olson M.V., 2000, Complete genome sequence of Pseudomonas aeruginosa PAO1, an opportunistic pathogen, Nature, 406(6799): 959-964
http://dx.doi.org/10.1038/35023079 PMid:10984043
Van't Spijker A., Rodriguez J.M., Kreulen C.M., Bronkhorst E.M., Bartlett D.W., Creugers N.H., 2009, Prevalence of tooth wear in adults, Int. J. Prosthodont., 22(1): 35-42
PMid:19260425
Vodovar N., Vallenet D., Cruveiller S., Rouy Z., Barbe V., Acosta C., Cattolico L., Jubin C., Lajus A., Segurens B., Vacherie B., Wincker P., Weissenbach J., Lemaitre B., Médigue C., and Boccard F., 2006, Complete genome sequence of the entomopathogenic and metabolically versatile soil bacterium Pseudomonas entomophila, Nature Biotech- nology, 24(6): 673-679
http://dx.doi.org/10.1038/nbt1212 PMid:16699499
Woese C.R., and Fox G.E., 1977, Phylogenetic structure of the prokaryotic domain: The primary kingdoms, Proceedings of the National Academy of Sciences of the United States of America, 74(11): 5088-5090
http://dx.doi.org/10.1073/pnas.74.11.5088